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La presente invention concerne une methode de discretisation/groupage d'un 
attribut source ou d'un groupe attributs source d'une base de donnees contenant une 
population d'individus dans le but notamment de predire des modalites d'un attribut 
cible donne. ^invention trouve particulierement application dans Sexploitation 
statistique des donnees, notamment dans le domaine de Fapprentissage supervise. 

1/ analyse statistique des donnees (encore appelee «data mining ») a pris un 
essor considerable ces dernieres annees avec l'extension du commerce electronique et 
1' apparition de tres grandes bases de donnees. Le data mining vise de maniere 
generale a explorer, classifier et extraire des regies dissociations sous-jacentes au 
sein d'une base de donnees. 11 est notamment utilise pour construire des modeles de 
classification ou de prediction. La classification permet d ? identifier au sein de la base 
de donnees des categories a partir de combinaisons d 5 attributs, puis de ranger les 
donnees en fonction de ces categories. . J 

De maniere generale, les valeurs (encore appelees modalites) prises par un 
attribut peuvent etre numeriques (par exemple un montant d' achats) ou symbolique 
(par exemple une categorie de consommation). On parle dans le premier cas d ; attribut 
numerique et dans le second cas d' attribut symbolique. 

Certaines methodes de data mining requierent une « discretisation » des attributs 
numeriques. On entend ici par discretisation d'un attribut numerique un decoupage du 
domaine des valeurs prises par un attribut en un nombre fini d'intervalles. Si le 
domaine en question est une plage de valeurs continues la discretisation se traduira par 
une quantification de cette plage. Si ce domaine est deja constitue de valeurs discretes 
ordonnees, la discretisation aura pour fonction de regrouper ces valeurs en groupes de 
valeurs consecutives. 

La discretisation des attributs numeriques a ete largement traitee dans la 
litterature. On en trouvera par exemple une description dans Pouvrage de Zighed et al. 
intitule « Graphes dMnduction » publie chez HERMES Science Publications. 

On distingue deux types de methodes de discretisation : les methodes 
descendantes et les methodes ascendantes. Les methodes descendantes partent de 
l'intervalle complet a discretiser et cherche le meilleur point de coupure de fintervalle 
en optimisant un critere predetermine. Les methodes ascendantes partent d'intervalles 
elementaires et cherchent la meilleure fusion de deux intervalles adjacents en 
optimisant un critere predetermine. Dans les deux cas, eiles sont appliquees 
iterativement jusqu'a ce qu 3 un critere d'arret soit satisfait. 
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La presente invention concerne plus particulierement une methode de 
discretisation ascendante basee sur f optimisation globale du critere de jf. 

Une methode de discretisation ascendante utilisant le critere du j£ est connue 
dans la litterature sous le nom de ChiMerge. Elle est par exemple decrite dans le 
5 document intitule "Discretization of Numeric Attributes" publie dans 
PROCEEDINGS TENTH NATIONAL CONFERENCE ON ARTIFICIAL 
INTELLIGENCE, SAN JOSE, CA, USA, 12-16 JULY 1992, pages 123-128 au nom 
de KERBE R. 

On rappellera tout d'abord que le critere du % permet sous certaines hypotheses 
10 de determiner le degre d'independance de deux variables aleatoires. 

Soit S un attribut source et T un attribut cible. On supposera pour fixer les idees 
que S presente cinq modalites a,b,c,d,e et T trois modalites A,B ? C. Le Tableau 1 
montre le tableau de contingence des variables S et T avec les conventions suivantes : 
rtij est le nombre d'individus observes pour la / eme modalite de la variable S et la 
15 f m * modalite de la variable T . est encore appele effectif observe de la case (if) ; 

fit. est le nombre total d'individus pour la / cme modalite de la variable S . n x _ est 
encore appele effectif observe de la ligne i ; 

rij est le nombre total d'individus pour la f me modalite de la variable T . nj est 
encore appele effectif observe de la colonne j ; 
20 TV est le nombre total d'individus. 



S/T 


A 


B 


c 


Total 


a 




n\i 


rt\s 


n\. 


b 


"21 


n 2 2 




ri2. 


c 


"3! 


nyi 




ny 


d 


«41 


«42 


n 43 




e 


n 5X 


«52 


/I53 




Total 


n i 


»2 


«3 


N 



Tableau 1 



25 De maniere generate, on notera I et J respectivement le nombre de modalites de 

P attribut S et le nombre de modalites de P attribut T. 
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n i n i 

On definit l'effectif theorique e tj de la case (ij) par e { r~jf- > representant le 

nombre d'individus qui serait observe dans la case du tableau de contingence dans le 
cas de variables independantes. L'ecart a Findependance des variables S et T est 
mesure par : 

5 

Plus la valeur de ^ est elevee, moins l'hypothese d'independance des variables 
aleatoires S et T est probable. On parle par abus de langage de probabilite 
10 d'independance des variables. 

Plus precisement est une variable aleatoire dont on peut montrer que la 
densite suit une loi dite du a (Y-l).(J-l) degres de liberte. La loi du est celle 
suivie par une somme quadratique de valeurs aleatoires normales centrees. Elle a de 
fait Fexpression d'une loi y et tend vers une loi gaussienne lorsque le nombre de 
1 5 degres de liberte est eieve. 

Par exemple si 1=5 et J=3, le nombre de degres de liberte vaut 8. Si la valeur de 
calculee par (1) vaut 20 ? la loi du j£ a 8 degres de liberte donne une probabilite 
d'independance de S et T de 1 %. 

Ay ant montre que le critere du £ permet de determiner le degre d'independance 
20 de deux variables aleatoires, nous presenterons maintenant la methode de 
discretisation ascendante par optimisation du critere du jC Q ue constitue la methode 
dite ChiMerge. 

Nous nous plaQons dans le cas general d'un attribut source S a / modalites et 
d'un attribut T a J modalites. La methode ChiMerge considere seulement deux lignes 
25 consecutives / et i+1 du tableau de contingence. Soit q ' u q \,..,q j la distribution locale 
(c'est-a-dire dans le contexte local des lignes consecutives / et /+/) de probabilite des 
modalites pour V attribut cible T. Si n L est l'effectif de la ligne i et est l'effectif de 
la ligne /+7, les effectifs observes et theoriques de la ligne i s'expriment 
respectivement par n^a^ et e v -q % n. ou les a tj representent les proportions d'effectiis 

30 observes pour la ligne /. De merne, les effectifs observes et theoriques de la ligne /+/ 
s'expriment respectivement par w /+L/ =^ /+IJ « /+It> et e MJ =q % .n^ou les a i+ \j representent 

les proportions observees de modalites de T pour la ligne i+L La distribution locale 
de probabilite q \,q '2>-,q j des modalites de V attribut cible peut etre exprimee par : 
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, _anni.+ai+\jni+\,. 

Q j~— = 



(2) 



Selon la methode ChiMerge, on calcule la valeur du j£ pour les lignes / et /4-1, 

./ ./ 

5 soit, en tenant compte du fait que ^g\-=//y ff ==l : 



-1 



+w 4 



f 7 2 ^ 



(3) 



10 



soit encore apres transformation 



2 _ ^Vk y 



<>i.. y=l 



(4) 



15 



20 



25 



2"?+, est une variable aleatoire suivant une loi du a ,/-l degres de liberte. La 
methode ChiMerge propose de fusionner les lignes i et i+ 1 si : 

prob{xl Mv l-\ )<Pr ob(a,K)=pn, 
(5) 

oil prob(a,K) designe la probabilite que ^ >a pour la loi du a K degres de 
libertes et p T h est une valeur de seuil predeterminee parametrant la methode. En 
pratique, la valeur prob{o^K) est obtenue a partir d'une table classique du donnant 
la valeur de a en fonction de prob(a,K) et de K. 

La condition (5) exprime que la probabilite d'independance de S et T au vu des 
deux lignes considerees est inferieure a une valeur de seuil. La fusion de lignes 
consecutives est iteree tant que la condition (5) est verifiee. La fusion de deux lignes 
entraine le regroupement de leurs modalites et la sommation de leurs effectifs. Par 
exemple dans le cas d'un attribut numerique a valeurs continues on a avant fusion : 











n u 
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Tableau 2 

et apres fusion : 



5 

Tableau 3 

Dans le document de brevet FR-A-2 825 168, est proposee une methode qui est 

un perfectionnement a la methode qui vient d'etre decrite notamment en ce qu'elle 
10 permet de s'affranchir du probleme, dans la methode ChiMerge, du choix du 

parametre p T h qui ne doit pas etre trop eleve sous peine de fusionner toutes les lignes 

ni trop faible sous peine de ne fusionner aucune paire. 

Supposons le cas d*un attribut S numerique mono-dimensionnel a valeurs 

continues. Apres avoir ordonne les modalites de S, Tensemble de ces modalites peut 
15 etre decoupe en intervalles elementaires Si^fa^+iL f=l,..,/. Nous souhaitons evaluer 

le degre d'independance de cet attribut avec un attribut cible T de modalites 7}, 

y=l,.. ? J. On peut representer le tableau de contingence : 



S/T 


T x 


T 2 




Tj 


Total 


S. 


«u 






ri\j 
















Si 


n K\ 


na 




n itJ 




S,+] 




km, ,2 




















Si 


«/J 


n/,2 




ni tJ 




Total 




n -2 




"J 


N 



20 Tableau 4 



D'apres (1) la valeur du X sur 1' ensemble du tableau peut s'exprimer par : 
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(6) 



Soit encore en notant q\,q 2 ,-,g} la distribution de probability des modalites de 
l'attribut cible et ay les proportions d'effectifs observes pour la ligne ; et en 

remarquant que e„=q n, , nf=a,/t, et ^J3i=jj l ir X '■ 



15 



20 



25 



f 2 ^\ 

a, 



(7) 



ou Z^est la valeur du pour la ligne L L'expression (7) signifie que le est 
1 0 additif par rapport aux lignes du tableau. 

Apres fusion de deux lignes consecutives / et i+7, la valeur du j 2 est modifiee et 
cette nouvelle valeur, notee Z%j+d P eut donc s'ecrire : 



(10) 



ou Aj ( 2 ;<M) est la variation du resultant de la fusion des lignes / et /+!. On a 
montre que la valeur de A^ /+1) peut etre calculee explicitement en fonction des 
proportions d'effectifs des lignes / et /+! : 



9 j 



(11) 



La liste des valeurs de A^ v+)) est triee par valeurs decroissantes. Pour celle 
presentant la valeur la plus elevee, on teste l'inegalite suivante des probability 
d'independance de S et de T avant fusion et apres fusion. On teste alors si : 



„(/ -2)(J-1 ))<prob(x2<I-\ )(J-1 )) 



(12) 
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Si la condition (12) est verifiee, on fusionne les lignes i 0 et ^+1 . En revanche, si 
la condition (12) n'est pas verifiee, alors elle n'est verifiee pour aucun indice / par 
suite de la decroissance de prob{a,K) en fonction de a. Le processus de fusion est 
alors arrete. 

Si les lignes i 0 et i 0 +\ ont ete fusionnees, on met a jour la liste des valeurs 
&X(n+\)- ° n notera que cette mise a jour ne concerne en fait que les valeurs relatives 
aux lignes contigues aux lignes fusionnees a savoir les lignes d'indices i 0 A et i 0 +2 
avant fusion (si elles existent). Le processus de fusion est itere tant que la condition 
(12) est satisfaite. 

La methode qui est decrite dans le document FR-A-2 825 168 conduit a une 
discretisation ad hoc du domaine des modalites, c 5 est-a-dire a une discretisation qui 
minimise Findependance entre Pattribut source et Tattribut cible sur Tensemble du 
domaine. En effet, cette methode de discretisation permet de regrouper des interyalles 
adjacents ayant des comportements de prediction similaires vis a vis de l'attribut cible, 
le regroupement etant arrete lorsqu'il nuit a la qualite de prediction, en d'autres termes 
lorsqu'il ne fait plus decroitre la probabilite d'independance des attributs. 

On obtient par fusions successives un tableau de contingence dont le nombre de 
lignes se reduit et dont les effectifs par case augmentent 

Cette methode pose neanmoins le probleme du a un phenomene dit de "sur- 
apprentissage M par lequel on conclut indument a une dependance des attributs. Cela 
correspond a une generalisation abusive de caracteristiques presentes dans 
rechantillon etudie uniquement en raison de fluctuations statistiques. Toujours dans le 
document FR-A-2 825 168, il a ete propose, pour resoudre ce probleme, d'adapter la 
methode de discretisation decrite ci-dessus de la maniere suivante : on accorde 
dlahprdJa.priorite aux fusions de lignes veriftant ( 12) qui permettent de verifier un 
critere d'effectif minimum. Le critere d'effectif minimum pourra, par exemple, 
s'ecrire pour la ligne io- 

e w >log 2 (10A0 5 J=lv.,/ ( 13 ) 

Neanmoins, en depit des bons resultats experimentaux obtenus, il s f est avere que 
dans certains cas le critere d'effectif minimum ci-dessus utilise n 5 offrait pas une 
garantie suffisante. En particulier, la discretisation d'attributs independants de 
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F attribut cible conduit a une discretisation en plusieurs intervalles. Cela traduit un sur- 
apprentissage, d'autant plus important que la taille de l'echantillon d'apprentissage est 
elevee. 

La methode qui est done expose dans le document de brevet FR-A-2 825 168 ne 
5 permet done pas de defmir un niveau «plancher» en nombre d' intervalles 
correspondant aux attributs independants de Fattribut cible. Le choix empirique de 
Peffectif minimum n'est done pas satisfaisant en presence d'attributs sans interet 
predictif. De plus, il ne tient pas compte du nombre et de la distribution des modalites 
cibles. 

10 Bien que Introduction precedente soit en relation avec une methode de 

discretisation d'un attribut source numerique, la presente invention n'est pas limitee a 
une telle methode. En effet, le probleme que cherche a resoudre la presente invention 
qui est le probleme de "sur-apprentissage" mentionne ci-dessus est tout a fait general 
et concerne egalement les methodes de groupage des modalites d'un attribut source 

15 lorsque lesdites modalites ne sont pas continues mais discretes. Lorsque les modalites 
sont continues, elles peuvent etre partitionnees en intervalles elementaires alors que 
lorsqu'elles sont discretes, elles sont partitionnees en groupes. II concerne egalement 
des methodes de discretisation ou de groupage de groupe d'attributs source, par 
exemple au nombre de k, qui peuvent alors etre considerees comme des methodes de 

20 discretisation ou de groupage en dimension k. Intervalles et groupes peuvent done etre 
de dimension k. Dans la suite de la description, ils seront appeles de maniere generate 
"regions". 

Par ailleurs, bien cette introduction ou le reste de la description considere 
comme critere de fusion le critere de (essentiellement pour des commodites de 
25 description), on comprendra que la presente invention ne se limite pas a ce critere 
particulier. 

Le but de la presente invention est done de proposer un perfectionnement une 
methode de discretisation/groupage d'un attribut source ou d'un groupe attributs 
source d'une base de donnees contenant une population d'individus dans le but 
30 notammcnt de predire des modalites d'un attribut cible donne qui permettent d'eviter le 
phenomene de « sur-apprentissage » mentionne ci-dessus empechant la detection des 
attributs sans interet predictif. 

A cet effet, et dans le cas tout a fait general, la presente invention concerne une 
methode de discretisation/groupage d'un attribut source ou d'un groupe attributs 
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source d'une base de donnees contenant une population d'individus dans le but 
notamment de predire des modalites d'un attribut cible donne, ladite methode 
comportant les etapes suivantes de : 

a) Partition desdites modalites dudit attribut source ou dudit groupe d'attribut en 
5 regions elementaires, 

b) Evaluation pour chaque couple de regions elementaires, d'un critere de fusion, 

c) Recherche, parmi Tensemble des couples de regions elementaires 
fusionnables, du couple de regions elementaires dont ledit critere de fusion serait 
optimisee, 

10 e) Arret de la methode s*il n'existe pas de regions elementaires dont la fusion 

aurait pour consequence d'ameliorer ledit critere de fusion, 
t) sinon fusion et reiteration des etapes b) a e). 

En vue de resoudre le probleme mentionne ci-dessus 5 cette methode est 
caracterisee en ce qu'elle comprend en outre une etape d) entre les etapes c) et e) de 
15 saut direct a Tetape f) tant que la valeur d'une variable depreciation de fusion n'est 
pas comprise dans une zone de valeurs atypiques predeterminee. 

Selon une autre caracteristique de la presente invention, ladite zone de valeurs 
atypiques predeterminee est telle que pour un attribut cible independant dudit attribut 
source ou dudit groupe attributs source, la valeur de ladite variable de fusion ne soit 
20 pas comprise dans ladite zone avec une probability p predeterminee. .s 

La presente invention concerne egalement en particulier une methode de 
discretisation d'un attribut source d'une base de donnees contenant une population 
d'ijidividus dans le but notamment de predire des modalites d'un attribut cible donne, 
ladite methode comportant les etapes suivantes de : 
25 a) Partition desdites modalites de P attribut source en intervalles elementaires 

deux a deux adjacents, 

b) Evaluation pour chaque couple d'intervalles elementaires adjacents dudit 
ensemble, la valeur du X du tableau de contingence apres une eventuelle fusion dudit 
couple, 

30 c) Recherche, parmi Tensemble des couples d'intervalles elementaires 

fusionnables, du couple d'intervalles elementaires dont la fusion maximiserait la 
valeur de % 2 , 

e) Arret de la methode s'il n'existe pas d'intervalles elementaires permettant de 
diminuer la probability d'independance, 
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f) sinon fusion et reiteration des etapes b) a e). 

Selon une caracteristique de cette methode, elle comprend en outre une etape d) 
entre les etapes c) et e) de saut direct a fetape f tant que la valeur Lj? de la variation 
de la valeur du % 2 avant et apres fusion est, en valeur absolue, inferieure a une valeur 
seuil predeterminee MaxA;^, 

Selon une autre caracteristique de 1'invention, ladite valeur seuil predeterminee 
MaxA^ 2 est telle que pour un attribut cible independant de 1'attribut source la valeur 
A^ 2 de la variation de la valeur du x 2 avant et apres fusion soit toujours inferieure a 
ladite valeur MaxA^ avec une probability p predeterminee. 

Selon une autre caracteristique de 1'invention, ladite valeur seuil predeterminee 
MaxA^ est egale a la fonction du % 2 de degre de liberte egale au nombre J de 
modalites de 1'attribut cible moins un pour une probabilite p a la puissance 1/NouN 
est la taille de I'echantillon de la partie de la base de donnees sur laquelle est appliquee 
ladite methode de discretisation : 

MaxAx^lnvx 1 jip xm ) 

ou lnv]C est la fonction qui donne la valeur du % 2 en fonction d'une probabilite 
p donnee. 

Selon une autre caracteristique de rinvention, ladite methode comporte une 
etape de verification que Teffectif d'un attribut source pour des modalites dans un 
intervalle donne pour chaque attribut cible est superieur a une valeur predeterminee, et 
si tel n'est pas le cas, mettre en reuvre la fusion dudit intervalle avec un intervalle 
adjacent. 

La present invention conceme encore en particulier une methode de groupage 
d'un attribut de source d'une base de donnees contenant une population d'individus 
dans ie but notamment de predire des modalites d'un attribut cible donne, ladite 
methode comportant les etapes suivantes de : 

a) Partition desdites modalites de 1'attribut source en une pluralite de groupes, 

b) Evaluation pour chaque couple de groupes dudit ensemble, la valeur du % du 
tableau de contingence apres une eventuelle fusion dudit couple, 

c) Recherche, parmi Tensemble des couples de groupes fusionnables, du couple 
de groupes dont la fusion maximiserait la valeur de x 2 > 
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e) Arret de la methode s'il n'existe pas de fusions de groupes permettant de 
diminuer la probabilite d'independance, 

f) sinon fusion et reiteration des etapes b) a e). 

Selon une caracteristique de l'invention, cette methode comprend en outre une 
5 etape d) entre les etapes c) et e) de saut direct a Tetape f) tant que la valeur de la 

variation de la valeur du x 2 avant et apres fusion est, en valeur absolue, inferieure a 

une valeur seuil predeterminee MaxA^f 2 . 

Selon une autre caracteristique de l'invention, ladite valeur seuil predeterminee 

MaxA^ est telle que pour un attribut cible independant de l'attribut source la valeur 
10 Ax 2 de la variation de la valeur du % 2 avant et apres fusion soit toujours inferieure a 

ladite valeur MaxA^ avec une probabilite p predeterminee. 

Selon une autre caracteristique de l'invention, pour etablir la valeur seuil 

predeterminee MaxA^, elle consiste a utiliser une table de valeurs prealablement 

calculee de valeurs de moyenne et d'ecart type en fonction du nombre de modalites de 
1 5 l'attribut source et du nombre de modalites des attributs cibles, a determiner par 

interpolation lineaire a partir de ladite table de valeurs la moyenne et l'ecart type du 

MaxA^ 2 correspondant aux attributs a grouper, puis a determiner en utilisant la loi 

normale inverse la valeur seuil predeterminee MaxA^ 2 correspondant qui ne sera pas 

avec une probabilite p. 

20 Selon une autre caracteristique de Tinvention, pour deux modalites. cibles, la 

moyenne du MaxA^ est asymptotiquement proportionnelle a 21/n ou I est le nombre 
de modalites sources. 

Selon une autre caracteristique de l'invention, pour deux modalites sources, la 
loi du MaxA^ 2 est la loi du / a J-l degres de liberte, J etant le nombre de modalites 

25. cibles. 

Selon une autre caracteristique de l'invention, ladite methode comporte une 
etape prealable de verification que Teffectif d'un attribut source pour des modalites 
dans un groupe donne pour chaque attribut cible est superieur a une valeur 
predeterminee, et si tel n'est pas le cas, mettre en oeuvre une fusion dudit groupe avec 
30 un groupe specifique, ledit groupe fusionne formant alors de nouveau ledit groupe 
specifique. 

La presente invention concerne egalement en particulier une methode de 
discretisation en dimension k d'un groupe de k attributs sources continus d'une base 
de donnees contenant une population d'individus, dans le but notamment de predire 
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les modalites d'un attribut cible donne, ladite methode comportant les etapes 
suivantes de : 

a) Partition desdites modalites du groupe des k attributs sources en des regions 
elementaires de dimension k, 

b) Evaluation pour chaque couple de regions elementaires adjacentes, la valeur 
du du tableau de contingence apres une eventuelle fusion dudit couple, 

c) Recherche, parmi l'ensemble des couples de regions fusionnables, du couple 
de regions dont la fusion maximiserait la valeur de % , 

e) Arret de la methode s'il n r existe pas d'ensemble d'intervalles permettant de 
diminuer la probability d'independance, 

f) sinon fusion et reiteration des etapes b) a e). 

Elle est caracterisee en ce qu'elle comprend en outre une etape d) entre les etapes 
c) et e) de saut direct a fetape f) tant que la valeur A^ de la variation de la valeur du 
X 2 avant et apres fusion est, en valeur absolue, inferieure a une valeur seuil 

predeterminee MaxA^- 

Enfin, elle concerne une methode de groupage en dimension k d'un groupe de k 
attributs sources discrets d'une base de donnees contenant une population d'individus, 
dans le but notamment de predire les modalites d'un attribut cible donne, ladite 
methode comportant les etapes suivantes de : 

a) Partition desdites modalites du groupe des k attributs source en une pluralite 
de groupes, 

b) Evaluation pour chaque couple de groupes, la valeur du ]T du tableau de 
contingence apres une eventuelle fusion dudit couple, 

c) Recherche, parmi l'ensemble des couples de groupes fusionnables, du couple 
de groupes dont la fusion maximiserait la valeur de x% 

e) Arret de la methode s'il n'existe pas de fusions de groupes permettant de 
diminuer la probability d'independance, 

f) sinon reiteration des etapes b) a e). 

Elle est alors caracterisee en ce qu'elle comprend en outre une etape d) entre les 
etapes c) et e) de saut direct a l'etape f) tant que la valeur a/ de la variation de la 
valeur du % avant et apres fusion est, en valeur absolue, inferieure a une valeur seuil 
predeterminee MaxAjf. 

Les caracteristiques de P invention mentionnees ci-dessus, ainsi que d'autres, 
apparaitront plus clairement a la lecture de la description suivante d'un exemple de 
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realisation, ladite description etant faite en relation avec la Fig. unique est un 
organi gramme montrant les differentes etapes mises en oeuvre par la methode de 
discretisation ou une methode de groupage selon la presente invention. 

Comme deja mentionne ci-dessus, la presente description va, pour des raisons de 
5 commodites, considerer comme : 

critere de fusion, le critere de X » 

amelioration du critere de fusion, la diminution de la probability d'independance, 
variable ^appreciation d'une fusion, la valeur de la variation Ax de la valeur du 

X 2 avant et apres ladite fusion, 
10 zone de valeurs atypiques. les valeurs de la variation Ax superieures a une 

valeur seuil predeterminee MaxA^. 

Mais on comprendra que la presente invention ne se limite pas a ces cas 

particuliers. 

Dans un premier temps, on va considerer, dans ce cadre limitatif expose ci- 
15 dessus, une methode de discretisation d'un attribut source telle que celle qui est decrite 
dans le document de brevet FR-A-2 825 168. Dans ce document, on envisage, toutes 
les fusions possibles d'intervalles, on choisit la meilleure fusion, et si le critere d'arret 
n'est pas atteint, on effectue cette fusion et on continue. 

Selon ce mode de realisation de la presente invention, on va de meme etudier la 
20 loi du &xli+i (variation de la valeur du x I° rs de la fusion de deux intervalles i et 
i+1). Lors du deroulement de la methode, un grand nombre de fusions sont 
envisagees, et a chaque etape, on choisit la meilleure de toutes ces fusions en 
optimisant le critere du £ 7 ou ce qui est equivalence en optimisant le critere du Ay 2 (le 
X de depart etant fixe) d'une maniere equivalent a ce qui est decrit dans le document 
25 mentionne ci-dessus. En _plus d^une condition d'arret sur les probabilites 
d l independance entre attribut source et attribut cible avant et apres, la methode selon la 
presente invention prevoit de continuer les fusions tant que la valeur du A^ ) /0+y n'est 

pas assez importante (On rappelle ici que iO et iO+1 sont respectivement les indices 
des intervalles dont la valeur du A xk*o+i est la plus elevee). 
30 En d'autres termes, on va effectuer un test sur cette valeur du Ax? 0J0+/ la plus 

elevee, ou plus exactement sa valeur absolue, en la comparant avec une valeur 
maximale notee MaxA^. Si cette valeur absolue de Azhjo+i est inferieure a la valeur 

MaxA^ 7 , alors le processus de fusion des intervalles est force quoi qu'il arrive (en 
ignorant les autres conditions d'arret). 
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On a represent a la Fig. 1 un organigiamme d'un exemple de mise en ceuvre 
d'une methode de discretisation selon la presente invention. 

L'algorithme debute par une phase d'initialisation 100, 110 120 130 (les 
references sont identiques a celles qui sont utilisees dans le document de brevet 
' FR-A-2 825 168 dans laquelle on realise une partition du domaine des modalites de 
1 attnbut source en intervalles elemental ordonnes (etape 100), on calcule la valeur 
du * resultant ainsi que les valeurs les valeurs pour les 1 lignes du tableau de 
contingnece (etape 110), on calcule les valeurs des valeurs ^ (etape 120) et 

on tne par ces valeurs par valeurs decroissantes ( etape 130). 

0 On notera que la premiere valeur A^.,. f/ est celle qui est la plus elevee en 

valeur relative mais comme les valeurs A^sont toujours negatives, elle est celle 
dont la valeur absolue est la plus faible. Cette valeur correspond a la fusion de deux 
intervalles adjacents indices iO et i 0+ l pour laquelle la valeur absolue de A r> est 
minimis* ou pour laquelle la valeur du ^,,, fl+1) apres fusion des intervalles iO eUO+1 
5 est maximisee. 

r* A V tT^ 0, n ° UVel,e ^ raPP ° rt * Ce qui eSt d6cTh dans ,e document 
1K-A-2 825 168, on initialise la valeur MaxA^. 11 pourrait s'agir d'une valeur 

constante prise une fois pour toute. Neanmoins, comme on le verra par la suite cette 
valeur depend des donnees a traiter si bien qu'a fetape 200, c'est un calcul qui est 
effect ue. n 

A Fetape 140, on teste si la condition d'effectif minimum dans chaque case du 
tableau de continence est verifiee. II peut s'agir de verifier que chaque case du 
tableau comporte un minimum d'effectif pour que le procede de la presente invention 
puisse fonctionner correctement en se placant dans les conditions d'application du test 
du On comprendra qu'il ne s'agit pas ici, comme c'etait le cas dans le cas dans le 
document de brevet FR-A-2 825 168 mentionne ci-dessus, de resoudre le probleme de 
sur-apprenhssage. En reprenant les notations ci-dessus, il s'agit ici de verifier que : 

"ij > n min pour tout i et j 

ou n min est le nombre d'effectif minimum. Ce nombre est par exemple de 5 
Dans le cas ou la relation precedente est verifiee, on passe directement au test 
ZW. Dans la negative, on poursuit par Fetape 145. 
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A l'etape 145, on donne priorite aux couples d'intervalles dont Tune d'entre 
elles au moins a une case qui n'a pas atteint Feffectif minimum n mm et a l'etape 165 
Ton selectionne parmi eux le couple d'intervalles Qo, io+l) dont la valeur A zljo+i e st la 

plus elevee. Puis, on poursuit a l'etape 170. 
5 A l'etape 210, etape nouvelle par rapport a ce qui est decrit dans le document 

FR-A-2 825 168, on teste si la valeur absolue du &xkio+i l a pl us elevee est inferieure 
a la valeur maximale notee MaxA;^ determinee a l'etape 200. Si cette valeur absolue 
de Azljo+j e st inferieure a la valeur MaxA;^ 2 , alors on poursuit a l'etape 160 sinon on 

passe a l'etape 150. 

10 A l'etape 150, on considere les intervalles iO et i0+l dont la valeur A zljo+i est la 

plus elevee et on teste si la probability d'independance entre attribut source et attribut 
cible apres fusion de ces deux intervalles, notee prof^z\i^k^\)^-^)(^~^))^ est 
inferieure ou egale a la probabilite d'independance entre attribut source et attribut cible 
avant fusion des deux intervalles. On teste done la relation suivante : 

15 

Si tel est le cas, on selectionne (etape 160) le couple d'intervalles iO et iO+'l 
comme etant a fusionner et Ton poursuit a l'etape 170. Par contre, si tel n'est pas le 

20 cas, le processus se termine en 190. 

A l'etape 170, les intervalles d'indice i 0 et i 0 +\ sont fusionnes. La nouvelle 
valeur de zl o) est ensuite calculee en 180 ainsi que les nouvelles valeurs de A^_ t , o) et 
A;^ o . +l) pour les intervalles adjacents, s'ils existent. En 185, la liste des valeurs 
A^ j/+1) est mise a jour: les anciennes valeurs Aj^, io) et A^ o , o+1) sont supprimees et 

25 les nouvelles valeurs sont stockees. La liste des valeurs A^^est avantageusement 
organisee sous forme d'arbre binaire de recherche equilibre permettant de gerer les 
insertions/suppressions tout en maintenant la relation d'ordre dans la liste. Ainsi, il 
n'est pas necessaire de trier completement la liste a chaque etape. La liste des 
drapeaux est egalement mise a jour. Apres la mise a jour, le processus retourne a 

30 l'etape de test 140. 

On decrit ci-dessous des modes de realisation de moyens qui permettent de 
determiner la valeur de MaxA^. On comprendra que ces moyens sont mis en oeuvre 
dans la boite 200 de la Fig. 1 . 
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Pour ce faire, on va partir de la constatation que, pour un attribut source et un 
attribut cible qui sont independents, le resultat souhaite est qu'a Tissue du processus 
de discretisation, il ne reste plus qu'un seul intervalle, signifiant ainsi que l'attribut 
source (pris isolement) ne contient pas d' information sur l'attribut cible. Dans ce cas, 
5 on peut pour une probability p donnee determiner une valeur MaxA^(p) qui ne sera 
pas depassee avec une probabilite p. 

Ainsi, a l'etape 200, on determine MaxA;r comme etant egal a MaxA^(p), avec 
p une probabilite dont la valeur est predeterminee. 

On assure ainsi le comportement desire avec une probabilite p. Dans le cas de 
10 deux attributs quelconques (non necessairement independants), cette fiabilisation de la 
methode nous permet d'affirmer que si Palgorithme produit une discretisation 
contenant de 1' information (au moins deux intervalles), il y a une probabilite 
superieure a p pour que l'attribut descriptif soit reellement porteur d' information sur 
l'attribut a predire. 

15 On a cherche a determiner theoriquement la relation qui existe entre la valeur de 

MaxA^ 2 et la probabilite p. Pour ce faire, on a etudie la toi du Delta A^ v+1) (variation 
de la valeur du )? lors de la fusion de deux intervalles de rang a et i+1) dans le cas de 
deux attributs independants. Dans ce cas, il faut continuer les fusions jusqu' a ce qu'il 
ne reste plus qu'un seul groupe final qui est en fait Pechantillon initial. 11 faut done 

20 que la plus grande valeur A^ o>f(i+1) rencontre au coins du processus soit accepte. On va 
essayer d'estimer cette plus grande valeur au cours du deroulement du processus de 
discretisation, et imposer que les fusions soient continuees tant que ce seuil n'est pas 
atteint, lequel sera done la valeur recherchee de MaxA^. 

Pour deux attributs independants, la valeur du j? suit une loi de probabilite dont 

25 l'esperance et la variance sont liees de la maniere suivante : 

30 

On a egalement pu montre (voir preccdemment la relation 1 1 ) que la variation 
induite du X suite a la fusion de deux intervalles d'effectifs respectifs n et n' el de 
proportions de modalites locales cibles respectivement egales a pj et p'j peut s'ecrire 
sous la forme : 
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^-VC /C apres _Jusion Aavanl ^fusion 77 | J2 . ' 

Pj est la proportion globale de modalites de Tattribut cible de rang j. 
5 On sait que cette variation est to uj ours negative, et n'est nulle que si les 

intervalles sont identiques ou ont exactement les memes proportions de modalites 
cibles. Ainsi, on sait que le d'un tableau de contingence ne peut que decroitre suite 
a la fusion de deux lignes du tableau de contingence. Par la suite, on redeflnit le Ay? 
par sa valeur absolue pour ne manipuler que des grandeurs positives. 

10 

nri ^p ipj-p'jf 

Le calcul de la fonction de repartition de Afc est base sur des lois binomiales 
discretes, ce qui le rend difficile a evaluer pour des valeurs importantes de n. On va 
utiliser le theoreme central limite pour approximer la loi du A^ dans le cas ou n=n\ 
15 On fait la proposition suivante : pour un attribut source independant d'un 

attribut cible a J modalites, le A%? resultant de la fusion de deux intervalles de meme 
effectif n et n' suit asymptomatiquement une loi du a J-l degres de libertes. 

On a pu montre que cette proposition est non seulement valable daiis. le cas de 
deux modalites cibles mais aussi dans les autres cas. 
20 On peut remarquer que la loi du Ax"' depend du nombre de modalites de 

rattribut cible, mais pas de leur distribution. 

On va maintenant evaluer la statistique des fusions de la methode selon la 
presente invention. 

"On remarque d'abord que lors d'une discretisation « totale » jusqu'a un seul 
25 intervalle final, le nombre de fusions effectuees est environ egal a la taille N de 
l'echantillon. 

On va dans un premier temps evaluer experimentalement le comportement reel 
de Palgorithme et ainsi cette modelisation statistique simple de la methode de la 
presente invention. L'experimentation consiste a mettre en ceuvre la methode de 
30 l'invention sur un echantillon comportant vm attribut source continu independant de 
P attribut cible et prenant des valeurs booleennes equi-distribuees. On effectue toutes 
les fusions possibles jusqu'a obtenir un intervalle terminal unique (les criteres d'arret 
sont rendus inactifs) et on collecte la valeur de A% 2 de chacune de ces fusions afin 
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d'en tracer la fonction de repartition. On effectue cette experimentation sur des 
echantillons de taille 100, 1000 et 10000, puis on compare les fonctions de repartion 
obtenues a la fonction de repartition theorique du Ax 1 de deux intervalles de meme 

effectifs (loi du a un degre de liberte). 

Cette experimentation montre que la loi des A% 2 resultant des differentes fusions 
effectuees lors de la mise en oeuvre de la methode de Invention ne depend pas de la 
taille de l'echantillon, et est bien modelisee par la loi theorique du Ax 1 demontree ci- 
dessus pour deux intervalles de meme effectif. Selon un mode de realisation de la 
presente invention, un seuil MaxA^ pour la mise en ceuvre de la methode ci-dessus 
est tel que pour deux attributs source et cible independants, la methode converge vers 
un seul groupe terminal avec une probability superieure ap(p- 0,95 par exemple). II 
faut done que toutes les fusions envisagees soient acceptees, e'est-a-dire que toutes les 
valeurs de Atf 2 resultant des fusions envisagees soient inferieures au seuil MaxA^ . En 
se basant sur la modelisation precedente ou toutes les fusions sont independantes, la 
probabilite que toutes les fusions envisagees soit acceptees est egale a la probabilite 
qu'une fusion soit acceptee a la puissance N. On cherche done MaxA^f tel que : 

p(ax 2 j <MaxAx 2 ) N >P 

En passant par la loi du equivalente, on a : 

p( X 2 ^ <MaxA X 2 ) >P 1/N 

Ce qui peut encore s T ecrire : 

MaxAx 2 = Invx 2 j ,(p ,/N ) 

ou InvX 2 est la fonction qui donne la valeur du % 2 en fonction d'une probabilite p 
donnee. 

On a cherche a valider cette modelisation de la loi du MaxA^. Pour ce faire, on 
s'interesse cette fois non plus a la distribution des valeurs du Ax 2 au cours dc la mise 
en oeuvre de la methode de Tinvention, mais aux maxima de ces valeurs. Pour cela. on 
utilise des echantillons de deux attributs source et cible reellement independants 
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comme precedemment et on collecte pour un grand nombre d'echantillons a 
discretiser la valeur maximale des A^ 2 resultant des fusions d'intervalles operees. On 
realise cette experimentation 1000 fois pour des echantillons de taille 100, 1000 et 
10000 et 100000 et on trace les fonctions de repartition « empiriques » de MaxA^ 2 
pour chacune de ces tailles d'intervalles. On trace egalement sur les memes figures les 
fonctions de repartition theoriques obtenues avec la formule ci-dessus. 

On a pu remarquer que les lois empiriques et les lois theoriques correspondantes 
ont des formes tres similaires, quelle que soit la taille de l'echantillon. On a egalement 
pu remarquer que les valeurs theoriques constituent une borne superieure des valeurs 
empiriques. Par consequent, cette borne constitue une estimation assez fidele des 
valeurs empiriques. On notera que bien que reposant sur des bases raisonnables, son 
comportement de borne superieure n'a pu etre verifie qu'experimentalement. 

On a realise des experimentations permettant d'evaluer la presente indention 
dans son premier mode de realisation particulier. 

Dans une premiere experimentation, on a discretise un attribut source continu 
independant d'un attribut cible a predire, pour des tailles d'echantillon de 100, 1000, 
10000, 100000 et 100000. Pour chacune des tailles d'echantillon, on a repete cette 
experimentation 1000 fois. On compte le nombre de cas ou la discretisation aboutit a 
un unique intervalle terminal, et dans les cas contraires de discretisation multi- 
intervalles, on calcule la valeur moyenne du nombre d'intervalles. Le resultat de cette 
premiere experimentation est montre dans le tableau ci-dessous. 





Discretisation 
multi-intervalles 


Taille d'echantillon 


% sans 
discretisation 


Nombre 
d'intervalles 


100 


98,6% 


2,36 


1000 


98,7% 


3,00 


10000 


98,4% 


3,00 


100000 


97,2% 


3,00 


1000000 


95,6% 


3,00 
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On peut constater que la discretisation d'un attribut independant de r attribut 
cible aboutit dans 95% a 98% des cas a un unique intervalle terminal On peut 
conclure, sur la base de cette experimentation, la methode selon la presente invention 
se comporte de maniere conforme a ce qui est attendu, au moins dans le domaine des 
5 taille d'echantillon variant de 100 a 1000000. 

On va montrer ci-dessous que la methode qui vient d'etre decrite en relation avec 
la Fig. 1 est non seulement applicable au probleme de la discretisation de donnees 
numeriques comme cela a ete montre ci-dessus mais egalement au probleme du 
groupage des modalites d'attributs symboliques. 

10 On rappelle que le probleme du groupage des modalites d'un attribut 

symbol ique consiste a partitionner V ensemble des valeurs de 1' attribut en un nombre 
fini de groupes identifies chacun par un code. Ainsi, la plupart des modeles predictifs 
a base d'arbre de decision utilisent une methode de groupage pour traiter les attributs 
symboliques, de fa<?on a lutter contre la fragmentation des donnees. 

15 La gestion des modalites d'une variable symbolique est un probleme plus 

general dont les enjeux depassent largement le cadre des arbres de decision. Par 
exemple, les methodes a base de reseaux de neurones n'utilisant que des donnees 
numeriques ont souvent recours a un codage disjonctif complet des variables 
symboliques. Dans le cas ou les modalites sont trop nombreuses, il est necessaire de 

20 proceder en prealable a des groupages de modalites. Ce probleme se rencontre 
egalement dans le cas des reseaux bayesiens. 

L'enjeu du regroupement des modalites est de trouver une partition realisant un 
compromis entre qualite informationnelle (groupes homogenes vis-a-vis de P attribut 
source a predire) et qualite statistique (effectifs suffisant pour assurer une 

25 generalisation efficace). Ainsi, le cas extreme d'un attribut ayant autant de modalites 
que d'individus est inutilisable : tout regroupement des modalites correspond a un 
apprentissage « par cceur » inutilisable en generalisation. Dans 1' autre cas extreme 
d'un attribut possedant une seule modalite, la capacite en generalisation est optimale, 
mais I 5 attribut ne possede aucune information permettant de separer les classes a 

30 predire. II s'agit alors de trouver un critere mathematique permettant d'evaluer et de 
comparer des partitions de taille differentes, et un algorithme conduisant trouver la 
meilleure partition. 

La methode groupage selon la presente invention utilise la valeur global e du 
du tableau de contingence entre attribut discrctise (attribut source) et attribut a predire 
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(attribut cible), et cherche a minimiser la probability P d'independance 
correspondante. La methode de groupage commence par le partionnement des 
modalites initiales puis evalue toutes les fusions possibles et choisit en fin celle qui 
maximise le critere du applique a la nouvelle partition formee. La methode s'arrete 

5 automatiquement des que la probability d'independance P ne decroit plus. Cette partie 
de la methode est identique a celle qui est decrite dans le document FR-A-2 825 168. 
De plus, la methode de groupage selon la presente invention est similaire a la methode 
de discretisation decrite ci-dessus en y apportant le meme perfectionnement Elle 
permet un controle reel de la qualite predictive d'un groupage de modalites. 

10 A 1'instar de la methode de discretisation decrite ci-dessus, elle repose sur P etude 

du comportement statistique de Palgorithme en presence d'un attribut symbolique 
independant de P attribut a predire. On a done etudie la statistique de la variation 
maximale du critere du lors du deroulement complet de Palgorithme d$ groupage. 
Cette etude a montre que cette valeur maximale MaxA^ ne depend que du nombre de 

15 modalites des attributs sources et cibles et est insensible a la repartition de ces 
modalites ainsi qu'a la taille de Pechantillon d'apprentissage. Suite a la modelisation 
de la statistique du MaxA^f , on a alors modifie Palgorithme de groupage initial en le 
contraignant a accepter toute fusion de modalites entrainant une variation du 
inferieure a la variation theorique maximale calculee MaxA^ 2 . 

20 La presente invention permet de garantir, d'une part, que les groupages de 

modalite d'un attribut independant de P attribut a predire aboutissent a un seul groupe 
terminal et ? d'autre part, que les groupages aboutissant a plusieurs groupes 
correspondent a des attributs ayant un interet predictif reel. Des experimentations 
confirment P interet de cette version robuste de Palgorithme et montrent de bonnes 

25 performances predictives pour les groupages obtenus. 

La methode de discretisation qui a ete decrite precedemment se generalise au 
groupage en rempla9ant les intervalles par des groupes de modalites et en rempla9ant 
la recherche de la meilleure fusion d'intervalles adjacents par la recherche de la 
meilleure fusion de groupes quelconques. 

30 La contrainte d'effectif minimum se traduit ici par un effectif minimum par 

modalite. Lors d'un pre-traitement, toute modalite source rPatteignant pas cet effectif 
minimum sera groupee inconditionnellement en une modalite speciale autre prevue a 
cet effet. Ainsi, il ne reste alors que des modalites qui satisfont la contrainte d'effectif 
minimum en entree de la methode de groupage. 
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De fa<;on analogue a la methode de discretisation precedemment decrite, il est 
possible de ramener Falgorithme de groupage a une complexite algorithmique de 
Nlog(N)+J 2 log(J) ou N est le nombre d'individus de Fechantillon et J est le nombre de 
modalites de Fattribut source (une fois la modalite speciale autre traitee). 
5 L'organi gramme de la methode de groupage selon la presente invention est 

identique a celui de la methode de discretisation decrite ci-dessus en relation avec la 
Fig. 2. 

On va maintenant cherche a exprimer la valeur du MaxAjff dans le cadre d'une 
methode de groupage. 

10 Lors de la mise en oeuvre de la methode de groupage selon 1'invention telle 

qu'illustree a la Fig. 2, on envisage toutes les fusions possibles de lignes du tableau de 
contingence et on choisit celle qui maximise la valeur du du tableau de contingence 
apres fusion des lignes, c'est-a-dire celle qui maximise la variation Lj? au cours de la 
fusion. 

15 On considere que la valeur MaxA;f est la valeur maximale du A^f qui sera 

atteinte lors de la mise en oeuvre de la methode selon la presente invention, valeur 
obtenue jusqu'a Tobtention d'un unique groupe de modalites terminal. 

Ainsu le principe de base de la methode de la presente invention est de constater 
que pour un attribut source independant de Fattribut a predire, on observera 
20 naturellement des variations du Atf 2 et done un MaxA^ du au hasard de i'echantillon. 
Mais en definitive, le groupage des modalites d'un attribut independant de Fattribut a 
predire devrait aboutir a un seul groupe terminal. Par consequent, on impose que toute 
fusion de groupe entramant une variation du £ inferienre aux variations pouvant etre 
dues au hasard (c'est-a-dire inferieure au MaxA^) soit automatiquement acceptee. On 
25 assure ainsi egalement que tout groupage aboutissant a au moins deux groupes 
terminaux correspond a un attribut non independant de Fattribut a predire. 

On va maitenant cherche a etablir la statistique du MaxA^ dans le cas du 
traitement du groupage de modalites d'attributs. 

Soit N la taille de Fechantillon, I le nombre de modalites sources et J le nombre 
30 de modalites ciblcs. 

On notera que, pour des raisons deja expliquees ci-dessus, Ton se place dans le 
cas ou la contrainte d'effectif minimum dc 5 par cellule du tableau de contingence est 
respectee, de lagon a pouvoir utiliser valablement la statistique du 
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A priori, la statistique du MaxA/ 2 depend de la taille de I'echantillon N, du 
nombre de modalites de l'attribut source I, du nombre de modalites de l'attribut J mais 
aussi de la repartition des frequences des modalites sources et de la repartition des 
frequences des modalites cibles. 
5 En fait, on a pu demontrer que la loi du MaxA^f 2 ne depend en realite que du 

nombre de modalites de l'attribut source I et de l'attribut cible J. On a egalement pu 
demontrer que pour 2 modalites sources, la loi du MaxA;}f est la loi du a J-l degres 
de liberies. Sa moyerme est done J-l. 

De plus, pour 2 modalites cibles, on a encore pu demontre que la moyenne du 
10 MaxA^ est asymptotiquement proportionnelle a 21 fa . 

On a decrit jusqu'ici une methode de discretisation d r un attribut source dont les 
modalites continues sont mono-dimensionnelles mais on comprendra que la presente 
invention est egalement applicable a une methode de discretisation d'un attribut'source 
dont les modalites egalement continues sont de dimensions k. 
15 Dans ce cas, l'attribut source est un attribut source numerique de dimensions k 

forme par k attributs sources mono-dimensionnels. Chaque individu de la population 
peut etre represente par un point de 1'espace desdits attributs de dimension k. 

Cette methode de discretisation en dimension k d'un groupe de k attributs 
sources consiste done a faire une partition des modalites du groupe des k attributs 
20 sources en des regions elementaires de dimension k et une evaluation pour chaque 
couple de regions elementaires adjacentes, la valeur du j£ du tableau de contingence 
apres une eventuelle fusion dudit couple. 

On notera que les regions elementaires en question sont par exemple des cellules 
de Voronoi de 1'espace des attributs sources. Pour trouver deux regions elementaires 
25 adjacentes, on construit le graphe de Delaunay associe aux cellules de VoronoY et Ton 
elimine de ce graphe tout arc joignant deux cellules voi sines en passant par une 
troisieme, les couples de regions adjacentes etant donnes par les arcs du graphe de 
Delaunay apres Tetape d'elimination. 

On pourra utilement se reporter au document de brevet FR-A-2 825 1 68 pour des 
30 details concemant ces etapes de partition et devaluation. 

Ensuite, on effectue la fusion, parmi l'ensemble des couples de regions 
fusionnables, du couple de regions dont la fusion maximise la valeur de % 2 et on arrete 
la methode lorsqu'il n'existe pas d'ensemble d'intervalles permettant de diminuer la 
probabilite d'independance. Si tel n'est pas le cas, on reitere les etapes precedentes. 
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Selon une caracteristique de la presente invention, la methode de discretisation 
en dimension k d'un groupe de k attributs sources est caracterisee en ce qu'elle 
comprend en outre une etape de saut direct a partir de d'etape de fusion apres I'etape 
d'arret tant que la valeur de la variation de la valeur du % 2 avant et apres fusion est, 
5 en valeur absolue, inferieure a une valeur seuil predeterminee MaxA^ 2 . 

De meme, la methode qui vient d'etre decrite est egalement applicable au 
groupage en dimension k d'un groupe de k attributs sources discrets. Comme 
precedemment, elle consiste alors a faire une partition desdites modalites du groupe 
des k attributs source en une pluralite de groupes et une evaluation pour chaque couple 
10 de groupes, la valeur du )f du tableau de contingence apres une eventuelle fusion 
dudit couple. 

Elle consiste a faire la fusion, parmi Tensemble des couples de groupes 
fusionnables, du couple de groupes dont la fusion maximise la valeur de x 2 et a arreter 
la methode s'il n'existe pas de fusions de groupes permettant de diminuer la probability 
1 5 d'independance, sinon on reitere les etapes precedentes. 

Cette methode de groupage comprend en outre une etape de saut direct a I'etape 
de reiteration tant que la valeur A;r de la variation de la valeur du avant et apres 
fusion est, en valeur absolue, inferieure a une valeur seuil predeterminee MzxA^ 2 . 

On rappelle que de maniere tout a fait general, la presente invention concerne 
20 une methode de discretisation/groupage d'un attribut source ou d'un groupe attributs 
source d'une base de donnees contenant une population d'individus dans le but 
notamment de predire des modalites d'un attribut cible donne. 

Si Ton se refere a la Fig. unique, les etapes de partition desdites modalites dudit 
attribut source ou dudit groupe d'attribut en regions elementaires, devaluation pour 
25 chaque couple de regions elementaires, de la valeur apres une eventuelle fusion dudit 
couple d'un critere de fusion, et de recherche, parmi l'ensemble des couples de regions 
elementaires fusionnables, du couple de regions elementaires dont le critere de fusion 
serait optimisee correspondant aux etapes 100, 1 10, 120 et 130. 

L'etape d'arret de la methode s'il n'existe pas de regions elementaires dont la 
30 fusion aurait pour consequence d'ameliorer le critere de fusion est I'etape 150. 

L'etape de fusion et reiteration est representee par la boucle incluant 160, 170, 
180et 185. 

L'etape de saut direct tant que la valeur de la variable d'appreciation de la fusion 
n'est pas comprise dans une zone de valcurs atypiques predeterminee est l'etape 210. 
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Enfin, l'etape de determination de la zone de valeurs atypiques predeterminee est 
l'etape 200. 
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REVENDICATIONS 

1) Methode de discretisation/groupage d'un attribut source ou d'un groupe 
attributs source d'une base de donnees contenant une population d'individus dans le 
but notamment de predire des modalites d'un attribut cible donne, ladite methode 

5 comportant les etapes suivantes de : 

a) Partition desdites modalites dudit attribut source ou dudit groupe d'attribut en 
regions elementaires, 

b) Evaluation pour chaque couple de regions elementaires, d'un critere de fusion, 

c) Recherche, parmi l'ensemble des couples de regions elementaires 
10 fusionnables, du couple de regions elementaires dont le critere de fusion serait 

optimisee, 

e) Arret de la methode s'il n'existe pas de regions elementaires dont la fusion 
aurait pour consequence d'arneliorer ledit critere de fusion, 

f) sinon fusion et reiteration des etapes b) a e), 

15 caracterisee en ce qu'elle comprend en outre une etape d) entre les etapes c) et e) 

de saut direct a Tetape f) tant que la valeur d'une variable d'appreciation de la fusion 
consideree n'est pas comprise dans une zone de valeurs atypiques predetermines 

2) Methode de discretisation/groupage d'un attribut source ou d'un groupe 
20 attributs source selon la revendication 1 , caracterisee en ce que ladite zone de valeurs 

atypiques predeterminee est telle que pour un attribut cible independant dudit attribut 
source ou dudit groupe attributs source, la valeur de ladite variable d'appreciation de la 
fusion consideree ne soit pas comprise dans ladite zone avec une probability p 
predeterminee. 

25 

3) Methode de discretisation d'un attribut source d'une base de donnees 
contenant une population d'individus dans le but notamment de predire des modalites 
d'un attribut cible donne, ladite methode comportant les etapes suivantes de : 

a) Partition desdites modalites de Tattribut source en intervalles elementaires 
30 deux a deux adjacents, 

b) Evaluation pour chaque couple d'intervalles elementaires adjacents dudit 
ensemble, la valeur du % du tableau de contingence apres une eventuelle fusion dudit 
couple. 



• 
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c) Recherche, parmi l'ensemble des couples d'intervalles elementaires 
fusionnahles, du couple d'intervalles elementaires dont la fusion maximiserait la 
valeur de x 2 , 

e) Arret de la methode s'il n'existe pas d'intervalles elementaires permettant de 
5 diminuer la probability d'independance, 

f) sinon fusion et reiteration des etapes b) a e), 

caracterisee en ce qu'elle comprend en outre une etape d) entre les etapes c) et e) 
de saut direct a l'etape f tant que la valeur A^ de la variation de la valeur du % 2 avant 
et apres fusion est. en valeur absolue, inferieure a une valeur seuil predeterminee 
10 MaxA^. 

4) Methode de discretisation selon la revendication3, caracterisee en ce que 

ladite valeur seuil predeterminee MaxA;^ 2 est telle que pour un attribut cible v ^ 
independant de 1'attribut source la valeur Ay? de la variation de la valeur du* x 2 avant et 
15 apres fusion soit toujours inferieure a ladite valeur MaxA^ avec une probabilite p >-".>£ 
predeterminee. 

.» 

5) Methode de discretisation selon la revendication 4 5 caracterisee en ce que 

ladite valeur seuil predeterminee MaxA^ est egale a la fonction du de. degre de - ^ 

20 liberte egale au nombre J de modalites de 1'attribut cible moins un>pour une 
probabilite p a la puissance 1/N ou N est la taille de Techantillon de la partie de la base 
de donnees sur laquelle est appliquee ladite methode de discretisation : 

MaxAz 2 =Invz 2 FA {p ]/N ) 

25 

ou Inv)C est la fonction qui donne la valeur du yj en fonction d'une probabilite 
p donnee. 

6) Methode de discretisation d'un attribut source selon une des revendications 3 
30 a 5, caracterisee en ce qu'elle comporte une etape de verification que Peffectif d'un 

attribut source pour des modalites dans un intervalle donne pour chaque attribut cible 
est superieur a une valeur predeterminee, et si tel n'est pas le cas 5 mettre en oeuvre la 
fusion dudit intervalle avec un intervalle adjacent. 
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7) Methode de groupage d'uii attribut de source d'une base de donnees 
contenant une population d'individus dans le but notamment de predire des modalites 
d'un attribut cible donne, ladite methode comportant les etapes suivantes de : 

a) Partition desdites modalites de 1' attribut source en une pluralite de groupes, 

b) Evaluation pour chaque couple de groupes dudit ensemble, la valeur du du 
tableau de contingence apres une eventuelle fusion dudit couple, 

c) Recherche, parmi 1'ensemble des couples de groupes fusionnables, du couple 
de groupes dont la fusion maximiserait la valeur de % , 

e) Arret de la methode s'il n'existe pas de fusions de groupes permettant de 
diminuer la probabilite d'independance, 

f) sinon fusion et reiteration des etapes b) a e), 

caracterisee en ce qu'elle comprend en outre une etape d) entre les etapes c) et e) 
de saut direct a l'etape f) tant que la valeur Ayr de la variation de la valeur du % 2 avant 
et apres fusion est, en valeur absolue, inferieure a une valeur seuil predeterminee 
MaxA^. 

8) Methode de groupage selon la revendication 7, caracterisee en ce que ladite 
valeur seuil predeterminee MaxA^ est telle que pour un attribut cible independant de 
rattribut source la valeur Ay 2 de la variation de la valeur du % 2 avant et apres fusion 
soit toujours inferieure a ladite valeur MaxA^ 2 avec une probabilite p predeterminee. 

9) Methode de groupage selon la revendication 7, caracterisee en ce que pour 
etablir la valeur seuil predeterminee MaxA^, elle consiste a utiliser une table de 
valeurs prealablement calculee de valeurs de moyenne et d'ecart type en fonction du 
nombre de modalites de rattribut source et du nombre de modalites des attributs 
cibles, a determiner par interpolation lineaire a partir de ladite table de valeurs la 
moyenne et l'ecart type du MaxA^ correspondant aux attributs a grouper, puis a 
determiner en utilisant la loi normale inverse la valeur seuil predeterminee MaxA^f 
correspondant qui ne sera pas avec une probabilite p. 

10) Methode de groupage selon la revendication 9, caracterisee en ce que pour 
deux modalites cibles, la moyenne du MaxA^ est asymptotiquement proportionnelle 
a 21/ k ou i est le nombre de modalites sources. 
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1 1) Methode de groupage selon la revendication 10, caracterisee en ce que pour 
deux modalites sources, la loi du MaxA^ 2 est la loi du % a J-l degres de liberie, J 
etant le nombre de modalites cibles. 

5 12) Methode de groupage d r un attribut source selon une des revendications 

precedentes 7 a 11, caracterisee en ce qu'elle comporte une etape prealable de 
verification que l'effectif d'un attribut source pour des modalites dans un groupe donne 
pour chaque attribut cible est superieur a une valeur predeterminee, et si tel n'est pas le 
cas, mettre en oeuvre une fusion dudit groupe avec un groupe specifique, ledit groupe 

10 fusionne formant alors de nouveau ledit groupe specifique. 

13) Methode de discretisation en dimension k d'un groupe de k attributs sources 
continus d'une base de donnees contenant une population d'individus, dans le but 
notamment de predire les modalites d'un attribut cible donne, ladite methode 
1 5 comportant les etapes suivantes de : 

a) Partition desdites modalites du groupe des k attributs sources en des regions 
elementaires de dimension k, 

b) Evaluation pour chaque couple de regions elementaires adjacentes, la valeur 
du du tableau de contingence apres une eventuelle fusion dudit couple, 

20 c) Recherche, parmi l'ensemble des couples de regions fusionnables^ du couple 

de regions dont la fosion maximiserait la valeur de y u 2 ? 

e) Arret de la methode s'il n ! existe pas d'ensemble d'intervalles peraiettant de 
diminuer la probabilite d'independance, 

f) sinon fusion et reiteration des etapes b) a e), 

25 caracterisee en ce qu'elle comprend en outre une etape d) entre les etapes c) et e) 

de saut direct a T^tape i) tant que la valeur de la variation de la'valeur du % 2 avant 
et apres fusion est, en valeur absolue, inferieure a une valeur seuil predeterminee 
MaxA^ 2 . 

30 14) Methode de groupage en dimension k d'un groupe de k attributs sources 

discrets d'une base de donnees contenant une population dMndividus, dans le but 
notamment de predire les modalites d'un attribut cible donne, ladite methode 
comportant les etapes suivantes de : 
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a) Partition desdites modalites du groupe des k attributs source en une pluralite 
de groupes, 

b) Evaluation pour chaque couple de groupes, la valeur du du tableau de 
contingence apres une eventuelle fusion dudit couple, 

5 c) Recherche, parmi Tensemble des couples de groupes fusionnables, du couple 

de groupes dont la fusion maximiserait la valeur de % , 

e) Arret de la methode s r il n'existe pas de fusions de groupes permettant de 
diminuer la probability d'independance, 

f) sinon reiteration des etapes b) a e) ? 

10 caracterisee en ce qu'elle comprend en outre une etape d) entre les etapes c) et e) 

de saut direct a Fetape f) tant que la valeur A%* de la variation de la valeur du % 2 avant 
et apres fusion est, en valeur absolue, inferieure a une valeur seuil predeterminee 
Max Ax 2 - 
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